SeamlessM4T在Text decoder產生文本後已達成三種任務的功能,包含S2TT、T2TT、ASR。若需要轉成語音輸出就再送進後級的T2U(Text-to-Unit)編碼器。它的T2U編碼器可將文本轉換為36種語言的語音單元,而後再送進Unit Decoder轉換為離散序列送進後級Vocoder生成語音輸出。
T2U(Text-to-Unit) encoder作為文本及語音單元解碼器之間的橋樑,且這轉換不需要改變序列長度。第二階段語音單元解碼器,透過T2U encoder的輸出結果生成離散序列單元(Unit)。只要單元生成,就可以送入後級Vocoder,將離散的語音單元轉為聲波訊號。
在整個UnitY模型的推理過程中,MetaAI執行了兩次解碼。 第一次是在Text Decoder找到最有可能的文本。然後送到T2U編碼器,生成最可能的離散語音單元(Unit)。最後將單元輸入到基於單元的聲碼器來生成聲波波形。
透過增加層數,MetaAI在第一階段文本解碼器分配更多的模型容量,高於第二階段的單元解碼器,這樣的做法他們稱為“深淺二階段解碼器”,來提高翻譯品質和推理。
T2U模型作為文本及語音單元的橋樑,有了文本輸出結果後,作為後續二階段語音處理的輸入。其中MetaAI在第一階段文本解碼器分配更多的模型容量,高於第二階段的單元解碼器,這樣的做法他們稱為“深淺二階段解碼器”,來提高翻譯品質和推理。